智能论文笔记

受到Mishchenko等人（2022）的最新突破的启发，他们首次表明局部梯度步骤可以导致可证明的通信加速，我们提出了一种替代算法，该算法获得了与他们的方法相同的通信加速度（Proxsskip）。但是，我们的方法非常不同：它基于Chambolle和Pock（2011）的著名方法，并具有多种不平凡的修改：i）我们允许通过适当的强烈凸出功能的代理操作员进行不精确的计算。基于梯度的方法（例如，GD，Fast GD或FSFOM），ii）我们对双重更新步骤进行仔细的修改，以保留线性收敛。我们的一般结果为强凸孔座鞍点问题提供了新的最先进率，其双线性耦合为特征，其特征是双重功能缺乏平滑度。当应用于联邦学习时，我们获得了Proxskip的理论上更好的替代方案：我们的方法需要更少的本地步骤（$ O（\ kappa^{1/3}）$或$ o（\ kappa^{1/4}）$，与Proxskip的$ O（\ kappa^{1/2}）$相比，并执行确定性的本地步骤。像Proxskip一样，我们的方法可以应用于连接网络的优化，我们在这里也获得了理论改进。

translated by 谷歌翻译

Federated Optimization Algorithms with Random Reshuffling and Gradient Compression

Abdurakhmon Sadiev , Grigory Malinovsky , Eduard Gorbunov , Igor Sokolov , Ahmed Khaled , Konstantin Burlachenko , Peter Richtárik

分类：机器学习

2022-06-14

梯度压缩是一种流行的技术，可改善机器学习模型分布式培训中随机一阶方法的沟通复杂性。但是，现有作品仅考虑随机梯度的替换采样。相比之下，在实践中众所周知，最近从理论上证实，基于没有替代抽样的随机方法，例如随机改组方法（RR）方法，其性能要比用更换梯度进行梯度的方法更好。在这项工作中，我们在文献中缩小了这一差距，并通过梯度压缩和没有替代抽样的方法提供了第一次分析方法。我们首先使用梯度压缩（Q-RR）开发一个随机重新填充的分布式变体，并展示如何通过使用控制迭代来减少梯度量化的方差。接下来，为了更好地适合联合学习应用程序，我们结合了本地计算，并提出了一种称为Q-Nastya的Q-RR的变体。 Q-Nastya使用本地梯度步骤以及不同的本地和全球步骤。接下来，我们还展示了如何在此设置中减少压缩差异。最后，我们证明了所提出的方法的收敛结果，并概述了它们在现有算法上改进的几种设置。

translated by 谷歌翻译

个性化联合学习（PFL）最近看到了巨大的进步，允许设计新颖的机器学习应用来保护培训数据的隐私。该领域的现有理论结果主要关注分布式优化以实现最小化问题。本文是第一个研究马鞍点问题的PFL（涵盖更广泛的优化问题），允许更丰富的应用程序，需要更多地解决最小化问题。在这项工作中，我们考虑最近提出的PFL设置与混合目标函数，一种方法将全球模型与当地分布式学习者相结合的方法。与最先前的工作不同，这仅考虑集中设置，我们在更一般和分散的设置中工作，允许我们设计和分析将设备连接到网络的更实用和联合的方法。我们提出了新的算法来解决这个问题，并在随机和确定性案例中提供平滑（强）凸起（强）凹凸点问题的理论分析。双线性问题的数值实验和对抗噪声的神经网络展示了所提出的方法的有效性。

translated by 谷歌翻译

在本文中，我们概括了Gasnikov等人的方法。Al，2017年，它允许使用不精确的无梯度的Oracle解决（随机）凸优化问题，以解决凸 - 凸座鞍点问题。所提出的方法至少像最好的现有方法一样有效。但是，对于特殊的设置（单纯类型的约束和1和2规范中Lipschitz常数的紧密度），我们的方法降低了$ \ frac {n} {\ log n} $ times所需的oracle调用数量（函数计算）。我们的方法通过有限差异使用梯度的随机近似。在这种情况下，该功能不仅必须在优化集本身，而且在其某个邻域中指定。在本文的第二部分中，我们分析了无法做出这样的假设时，我们提出了一种关于如何现代化解决此问题的方法的一般方法，并且我们还将这种方法应用于某些经典集合的特定情况。

translated by 谷歌翻译